PriFT: Ajuste fino supervisado con soporte previo
Descubre cómo PriFT optimiza el fine-tuning supervisado con pesos de tokens estables, evitando sobreajuste y mejorando resultados en razonamiento y código.
Descubre cómo PriFT optimiza el fine-tuning supervisado con pesos de tokens estables, evitando sobreajuste y mejorando resultados en razonamiento y código.
Descubre cómo el aprendizaje por refuerzo profundo transforma el diseño de procesos químicos. Revisión y perspectivas.
Descubre cómo el algoritmo TD(0) sin proyección logra una tasa de convergencia sublineal robusta, incluso con ruido markoviano. Una mejora clave para el RL.
Descubre cómo AT-DPT mejora la robustez del aprendizaje por refuerzo en contexto frente a ataques de envenenamiento de recompensas. Resultados sorprendentes.
Descubre GR2, el nuevo reordenador generativo que mejora recomendaciones con razonamiento de LLMs y aprendizaje por refuerzo, superando al estado del arte en Recall y NDCG.
La combinación de Q* y Bellman completa no es suficiente para RL offline con cobertura parcial. Descubre el nuevo marco teórico y mejoras.
La inteligencia de contacto transforma la robótica: desde hacer un perro con globos hasta la nueva mano OmniHand con sensores táctiles.
Descubre cómo SCOUT, con scouts ligeros, supera a Gemini-2.5-Pro en tareas no lingüísticas, ahorrando un 60% de GPU. Aprende más.
Descubre cómo MC-CPO reduce el hackeo de recompensas y mejora el dominio del conocimiento en tutorías inteligentes.
Descubre cómo el Proceso de Engagement redefine la interacción temporal entre acción y observación en sistemas de IA, mejorando la adaptación en entornos dinámicos.
MMR-GRPO acelera el entrenamiento GRPO priorizando soluciones diversas: reduce un 47.9% pasos y 70.2% tiempo.
Descubre por qué la flexibilidad de orden en modelos de difusión puede limitar el razonamiento. Conoce JustGRPO, una alternativa que mantiene la generación paralela.
ACTIVE-o3: aprendizaje por refuerzo puro para percepción activa en MLLMs. Logra mayor eficiencia y precisión sin supervisión explícita. Resultados líderes.
El Diseño No Supervisado de Compañeros (UPD) logra trabajo en equipo ad-hoc robusto sin poblaciones preentrenadas, superando en juegos y estudios humanos.
CORAL: un nuevo marco para aprendizaje por refuerzo en contexto que separa representación latente y control, logrando adaptación a cero y mejora en eficiencia de muestras.
Descubre cómo Robust-U1 permite a los MLLMs auto-recuperar imágenes corruptas, mejorando la comprensión visual con aprendizaje por refuerzo y alcanzando resultados líderes.
Descubre cómo optimizar la inferencia de visión-lenguaje en UAVs con inteligencia artificial y LLMs para mejorar la eficiencia en redes de economía de baja altitud.
Entrena políticas cuantizadas para hardware entero. En FPGA: latencias en µs, consumo en µJ, con 2 bits por peso y robustez al ruido.
Descubre LogNEO: detección de anomalías en logs con GPT-Neo y RL. Alcanza F1 de 0.984 y 45 ms de latencia.
Generación de instancias adversariales y entrenamiento robusto para optimización combinatoria multiobjetivo. Mejora el rendimiento en distribuciones complejas.